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на основ! моделей когн!тивно! психологи 


В статье рассматривается задача обучения системы мотивированного контекстного ситуационного 
управления. Описаны модели структурных изменений множества агентов при обучении, показана 
формализация этапа формирования прототипов ситуации и реакции, а также контекстной связи. 
Проведены компьютерные эксперименты, демонстрирующие процесс обучения. 

Ключевые слова: ситуационное управление, обучение с подкреплением, 
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У статт! розглядаеться задача навчання системи мотивованого контекстного ситуащйного керування. 
Описан! модел! структурних зм!н множини агентв шд час навчання, показана формалзащя етапу 
формування прототишв ситуацй та реакцй, а також контекстного зв’язку. Проведен! комп’ютерн! 
експерименти, що демонструють процес навчання. 
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Введение 


В статье рассматривается задача обучения поведению сложных робототехнических 
комплексов, которые могут использоваться либо для снижения производственных затрат, 
либо в случаях, когда непосредственное управление человеком затруднено. Поведение, 
которое должна демонстрировать система, заранее запрограммировать затруднительно 
в условиях отсутствия полной информации на этом этапе (функционирование в откры- 
той среде). Для управления такими комплексами применяются ситуационные системы 
управления [1]. Возникновение новых требований к поведению системы в процессе её 
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функционирования требует обучения этой системы. Известные подходы к обучению, в 
основном, базируются на моделях искусственных нейронных сетей [2], [3], поведенческих 
сетей [4], развивающегося интеллекта [5]. 

Рассматриваемая модель ситуационного управления [1], [6], модифицирована 
на основе данных когнитивной психологии [7], [8], которая подобно человеку и высоко- 
организованным животным хранит в памяти не набор прототипов «ситуация-действие», 
характерный для классических систем ситуационного управления, а прототип после- 
довательностей действий, названные скриптами. Особенность модели контекстного 
ситуационного управления выражена в структуре правил в виде односторонней за- 
висимости правил (1), если ввести понятие контекста. 


П,: ЕСЛИ {сот ,, 5<5,, М }ТО {и,‚ сот; }, (1) 


М › 


где М -— МОТИВ, 5 — текущая ситуация, 5 — эталонная ситуация-прототип, и — 

управляющее воздействие, СОТ 1 — контекстная связь между правилами П; И П; . 
Схематично организацию системы мотивированного контекстного ситуационного 

управления можно представить в виде, показанном на рис. 1. Она включает следующие 


компоненты: множество сенсоров 5! = {5и; р 1; Множество ситуационных агентов 
СА= {СА — множество эффекторов И = {и ра множество мотивов М = {т р 
АУ? ®К=1 > ГЯ=1 


Поведение системы определяется взаимодействием агентов с окружением: ситуацией, 
формирующей значения нечётких характеристик сенсорных элементов и мотивов. 


Сенсорная подсистема, 5М 


Эффекторная подсистема, И 


Рисунок 1 — Общая схема системы управления 
Ситуационный агент представляет упорядоченное контекстом множество ситуа- 
ционных элементов {се ‚ как показано на рис. 2. Каждый ситуационный элемент 
описывается правилом (1). 


Рисунок 2 — Схематичное строение ситуационного агента 


В статье рассматривается задача обучения такой системы управления. 

Постановка задачи. Система мотивированного контекстного управления [9], 
как и традиционная система ситуационного управления, базируется на множестве 
контекстно-зависимых правил. 

Управление рассматривается как многошаговый дискретный процесс в моменты 
времени 1, [+Т, Е+2Т,..., [+АТ .... Последовательность этапов одного шага управ- 
ления представлена на рис. 3: сформированные физическим датчиком значения фаз- 
зифицируются в виде нечётких характеристик элементарных сенсоров, которые фор- 
мируют сенсорную память; на основании сравнения текущей ситуации и прототипов 
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ситуации из прототипной памяти, формируется нечёткие характеристики прототипов 
реакций эффекторной памяти. Последний этап заключается в преобразовании прото- 
типа реакции в непосредственную реакцию — дефаззифицированные значения подаются 
исполнительному механизму. 

Прототипная память системы представлена набором ситуационных элементов, 
сгруппированных в ситуационные агенты. Отдельный ситуационный агент представ- 
ляет некоторое отдельное законченное действие — фрагмент поведения. 


Сенсорная || Прототипная | |Эффекторная 7 
память память память $ 
® 
= ы 
Е о 
> — 
= 5 $п, > ЗР, и, > 
$8 з 
= > 5 
х |8 $П, > ЗР, у, Г: 
> > ы $ 
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3 ЗЕ 
|: ны > НН» | > 5 > 5 
с 
о Е ЭП > зР, ч, Ь 3 
53 В: 
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Ф о. Ф 
| |= ы 
Е= [5] 
я Ф 
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Рисунок 3 — Этапы шага управления 


Для появления у системы нового поведения требуется создание нового ситуа- 
ционного агента или модификация одного из существующих ситуационных агентов. 
Пополнение множества ситуационных агентов выполняется методом обучения. В ка- 
честве исходного метода обучения, который развивается применительно к рассма- 
триваемому классу систем, применяется обучение с подкреплением [10]. 

В статье излагается модель и метод обучения с подкреплением для автономного 
формирования новых ситуационных агентов из нескольких ситуационных элементов, 
связанных в контекстную цепочку. Метод базируется на обобщении теорий научения 
(Э. Торндайка, Б. Скиннера, И. Павлова [11]), изученных в когнитивной психологии. 


Формальная модель управления 


Ситуационный элемент се контекстной цепочки (рис. 2), характеризуется: 

1) нечётким прототипом ситуации — 5 . 

2) нечётким прототипом управления — В: 

3) контекстной связью — К; 

4) мотивированной связью — М. 

Каждая из данных характеристик представляет собой множество нечётких ха- 
рактеристик [12] вида (2): 


й: деи, 69 ‚х«[-1,+1, ид, =2-еФ - эх 20) 


—> 
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Из 4-х вариантов рассмотренной концептуальной модели [13] в статье рас- 
сматривается задача обучения, сводящаяся к формированию нового ситуационного 
агента, его расширения и модификации контекстной связи. 

Создание нового ситуационного агента рассматривается как многоэтапный процесс 
обучения, на каждом этапе которого формируется ситуационный элемент путём нахо- 


ждения вышеперечисленных характеристик: прототипов ситуации (5 ) и управления 


(В ); нечётких характеристик мотива ( М) и контекстной связи ( К°). 

Первый шаг каждого этапа обучения начинается с обработки информации для 
выделенного не специфицированного «пустого» ситуационного элемента, который 
будет служить базой для образования нового элемента. Данный элемент обладает по- 
тенциальными связями со всеми существующими компонентами: контекстные с агента- 
ми; информационные с сенсорами и управлением; и связи с мотивами. Изначально эти 
связи имеют нейтральные значения нечётких характеристик. Структура ситуацион- 
ного элемента и его потенциальные связи показаны на рис. 4. 


Сенсорная система Ситуационные 


ЕО 5 


Ситуационный 
элемент 


Эффекторная система 


Рисунок 4 — Ситуационный элемент 


На последующих 1-х шагах обучение происходит в моменты времени АТ на основе 
подкрепления: произошло изменение (падение) нечёткой характеристики активности 
мотива. Значения перечисленных характеристик ситуационного элемента в моменты 
времени АТ находятся по модели обучения К на основании значений этих характе- 
ристик в предыдущий момент времени, а также вектора активности сенсоров ( М5), 
действий ( МА) и мотива ( ММ ). 


(3Амк) -2((8 АМК), „МУ МЬ мм) (3) 


где М5 = (5(&- г), мк- (кк г), , мм = (м(- г), 


И5 пи ит 


(ЕТ) ЧАТ): , КТ) - 1 АКЕТ)Ь , МЕТ) АТ) 


ее 1 -_ 1 > 1 


1= = 


Ниже рассматривается формализация процедуры формирования прототипов 5 


^ 


и К иконтекста модели Г обучения (3). 
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Концептуальная модель обучения 


При формализации механизма связанного с изменением базы знаний объекта 
управления, принято во внимание следующее: обучение происходит в том случае, когда 
имеет место фактор «неожиданности», так если для активного мотива и сложившейся 
ситуации существует агент, выполнение функции которого приводит к погашению 
мотива, то новых знаний система не приобретает. 

В случае отсутствия такого агента либо реагирование какого-либо другого агента, 
не приводящее к погашению мотива, означает, что существующие схемы неэффектив- 
ны и требуется обучение. В таком случае запускается («включается») механизм обуче- 
ния. Он использует информацию о ситуации, из которой произошёл переход к какой- 
либо известной ранее. В данном случае должны закрепляться: предыдущая ситуация 
и выполненное действие в виде ситуационного элемента, а также контекстная связь 
между данным элементом и существующим ситуационным агентом, которая будет 
определять ожидаемость погашения мотива. 

Возможно ещё, когда случайно выработанное управление привело к погашению 
мотива, — подкреплению. В таком случае полученный ситуационный элемент (СЭ) 
образует новый ситуационный агент, состоящий из одного ситуационного элемента. 
В этих двух случаях идёт образование нового элемента. 

Приведённые выше рассуждения являются обобщением известных теорий на- 
учения из физиологии и когнитивной психологии [11], а именно теорий Э.Л. Торндайка, 
К.Л. Халла, Э.Ч. Толмена, А. Бандуры. Анализ этих теорий и вышеприведённые рас- 
суждения позволили обобщить и выделить 4 варианта обучения: 

1. Изменение контекстной связи между ситуационными агентами. 

Это происходит в случае, когда ситуация, полученная в результате выполнения 
функции СА, сопоставима с прототипом ситуации, необходимым для активации 
другого СА,. Многократное повторение такой последовательности с последующим 
подкреплением (ослабление мотива) приводит к усилению контекстной связи СА; — 
СА; и в дальнейшем даже при значительном отклонении ситуации контекстная связь 
может обеспечить активацию ситуационного агента СА,. 

2. Образование нового ситуационного элемента. 

Если в процессе случайного применения управления образовалась ситуация, 
подходящая под прототип первого ситуационного элемента агента САк, поведение 
согласно которому привёло к погашению мотива, то активный мотив, исходная 
ситуация и выработанное поиском действие становятся мотивом, прототипами си- 
туации и реакции соответственно нового ситуационного элемента. Также образуется 
контекстная связь между вновь созданным СЭ и СА/. 

3. Образование нового ситуационного агента. 

Возможно, что в процессе принятия управления, привело к погашению мотива — 
подкреплению. В таком случае полученный СЭ образует новый ситуационный агент, 
состоящий из одного ситуационного элемента. 

4. Изменение прототипа существующего ситуационного элемента 

Происходит, если текущая ситуация была близка к прототипу некоторого су- 
ществующего ситуационного элемента, и было получено подкрепление. 

На рис. 5 приведено 3 варианта обучения. На рис. 5 а) показано изменение кон- 
текстной связи (сплошная стрелка) между ситуационными агентами СА; и СА,. При 
этом связь формируется односторонняя - в том же порядке, в котором происходит 


430 «Искусственный интеллект» 2013 №3 


О модификации метода обучения с подкреплением на основе моделей... 5К 


выполнение агентов. На рис. 5 6) показано формирование ситуационного агента САх 
путём внесения в него нового ситуационного элемента. На рис. 5 в) приведён новый 
ситуационный агент СА., сформированный на базе одного элемента. 


<< 


в) 
Рисунок 5 — Изменения структуры системы, вносимые обучением 


В первом варианте механизм обучения формирует нечёткое множество контекст- 
НОЙ СВЯЗИ СОти 7,1? которая влияет на активность суммарного контекстного входа 


А (к-1) г(со ый ). входящей в модель управления [9] при расчёте активности ситуацион- 
ного элемента се; 1. 

Во втором варианте механизма обучения формируются нечёткие множества про- 
тотипа ситуации 5,,, входящего в расчёт активности ситуационного элемента, и 


^ 


прототипа реакции К, , ‚ входящего в расчёт нечёткой активности эффекторов и. в 
модели управления [12]. Кроме этого также формируется контекстная связь со ККТ: 

В третьем варианте, как и во втором, происходит формирование нечётких множеств 
прототипа ситуации У и реакции В ‚ . Однако контекстная связь формируется между 


контекстным элементом и подкреплением и описывает ожидание подкрепления в случае 
выполнения данного ситуационного агента. Данная контекстная связь используется при 
управлении для выбора подходящего агента, в случае наличия альтернатив, а также 
при дальнейшем обучении. 

Значения всех сформированных нечётких множеств в каждом из вариантов 1 — 3 
зависят от времени, прошедшего между предъявлением стимула и изменением актив- 
ности ожидаемых значений мотивов (стимулом потребности), величины изменения 
активности мотива (полученного подкрепления). 


Формальная модель обучения 


Прототип ситуации представлен множеством нечётких характеристик элементов 
{5р; |, соответствующих сенсорам {5и; | сенсорной системы. Формирование прототипа 


ситуации, который представлен в виде множества (2), в КТ момент времени вычисляется 
согласно выражению (4). 


(4) 


АРТ) - ав тт Вии (к-т) 
=0,а — 


где д’; ((&- 7Г) - расчётная нечёткая характеристика элемента 5р, ‚ модифици- 


— 


рованная с учётом влияния эффективности обучения и величины подкрепления 
относительно момента времени («- Г ; 4 — глубина сенсорной памяти. 
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Формализация А’ (& _ ЛГ) приведена на (5). 


А ((к- ЛГ) = хх) = ехр или} , 
- 2, 9} (5) 


ое ба(а-рт) ^ (1-9) "Ч `@ ру) Рено) = (-ч)-В и) +4. ; 
+ 
“В (к г) Р пит) Рамат) 


ИИ: ДИ | ЩЕ) 
и 
Ру О я |4, С («ЛГ Е ) ( 5) 


ф — параметр скорости обучения; 


-Р) 
В. = :а=ф.е °; 


А ^ ((& _ Г) — нечёткая характеристика скорости изменения сенсора 5и, в момент 


времени («— ЗИ 


О _ (т ) — нечёткая характеристика подкрепления. 

По данным когнитивной психологии [11] процесс научения происходит с раз- 
личной эффективностью, которая определяется такими параметрами, как время между 
предъявлением стимула, совершённой реакцией и полученным подкреплением. Предла- 
гается эту зависимость представить в виде (6). 


Не: 
-е Т,х>0() (6) 


з |= 


где х - время от предъявления стимула до подкрепления, для х < 0 можно счи- 
тать значение равным 0; и -— параметр, задающий значение оптимального времени. 

Вторым фактором, влияющим на эффективность научения, является величина 
подкрепления — явились ли последствия действия полезными для объекта. Формализация 
представлена ниже (7). 


- в. 
оу @г)- х| и(х) = ехр - — 
оу (т) 


(7) 


‘ом(ит) =" “М (к-т) бам (ат) | Рот) = Вам ь-рт) Рам)’ 
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Параметр у влияет на эффективность обучения при малых изменениях мотива. 

Реальное изменение мотива может быть слишком отложено во времени, чтобы 
привести к обусловливанию, поэтому в работах физиологов вводилось понятие стимула 
потребности [11]. Он формализован в данной работе при описании подкрепления как 
суммарный мотив, который определяется на основании реального и фантомного мо- 
тивов. Под фантомным мотивом понимается ожидаемое значение мотива и является 
основой упреждения системы (8). 


АМ (т) = АМФ АМТ), (8) 
где М’ — фантомная активация мотива, ® — операция нечёткого накопления. 
Данная форма позволяет описать такие явления как стимул потребности, научение 

при отсутствии реального мотива (например, ситуации опасности), а также отсутст- 

вие научения в случае эффективности существующих реакций. 
Прототип реакции, аналогично прототипу ситуации, представлен множеством 

вида (2). Элемент данного множества определяется по формуле (9). 


АНГ) 8 тт В орг), (9) 


где А’ (к _ г) — расчётная нечёткая характеристика управления !", ‚ моди- 
фицированная с учётом влияния эффективности обучения и величины подкрепления 
на момент времени [( —] у ‚ значение характеристики находится аналогично (5). 

Параметр эффективности обучения (6) для реакции должен быть меньше, чем 
параметр для ситуации, так как реакция выполняется с некоторой задержкой после 
предъявления стимула. 

При формировании контекстной связи (10) между ситуационными элементами се, 


и се, величина нечёткой характеристики этой связи будет изменяться в соответствии с 
полученным подкреплением (7). 


“а со (т) = (1 к: Ф). А се (Е-уг) +0. ‘о М (т) . (10) 


Компьютерный эксперимент 


Компьютерный эксперимент проводился на комплексе, состоящем из робота 
ГЕСО МПУО$ТОКМБ МХТ, который удалённо управляется компьютером при помощи 
Вшеюо®. Робот имеет два независимо управляемых колеса. Третье колесо пассив- 
ное и обеспечивает устойчивость. Из датчиков робота использованы датчик сопри- 
косновения и расстояния, оба направлены вперёд. Целью эксперимента было обучение 
робота поведению, которое позволяет избежать столкновения с препятствием. 

В качестве примера рассмотрим обучение, которое будет выражаться в образо- 
вании ситуационного агента, вначале состоящего из одного ситуационного элемента. 
Для формирования данного ситуационного элемента необходимы: мотив, прототип 
ситуации и прототип реакции. Контекст в данном случае будет «нулевым». 

Информация от двух датчиков гранулирована так, что по показаниям датчиков фор- 
мируются нечёткие характеристики 28 элементарных сенсоров: 2 сенсора для датчика со- 
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прикосновения (571) ‚ 571} ), 20 для датчика расстояния для разного уровня детализации 


(от 2 до 6 сенсоров на область детектирования датчика: 5и4; ;,1= 1,5, ] = 0,1), а также по 


р, 


3 сенсора на каждое колесо (5иг; ‚Г = 0,1, 7 = - 1). Подробнее датчики описаны в [9]. 


5 
В качестве мотива выбран мотив самосохранения робота, который основан на 
ут!) : если сработал датчик, то есть угроза столкновения. В случае столкновения робота с 


препятствием, обучение избеганию будет происходить в два этапа: формирование зна- 
ния о столкновении и собственно обучение избеганию. В случае обучения сложному 
поведению эти этапы будут повторяться. 

Обучение было выполнено по следующей схеме. Робот движется по прямой к 
стенке со средней скоростью. При столкновении со стенкой возрастает активность 
мотива самосохранения. Ситуация соответствует прототипу изначально закреплённого 
агента СА, , выдаёт управление в соответствии с прототипом реакции — робот останав- 


ливается и отъезжает от стенки. До обучения траектория движения робота показана 
на рис. 6 а) и представляет собой горизонтальную линию. Вертикальной линией по- 
казана стена. 

В момент активизации мотива самосохранения происходит обучение упреждаю- 
щей ситуации — формируется прототип, описывающий малое расстояние до препят- 
ствия и движение вперёд. В процессе компьютерного эксперимента на основании 
нескольких столкновений данный прототип закрепляется и начинает активизировать 
фантомный мотив самосохранения до столкновения. 

Затем, при приближении робота к стене, подаётся команда поворота вправо, ко- 
торая позволяет избежать столкновения со стеной, траектория показана на рис. 6 6), 
мотив не активируется, а значит, активность М падает, что соответствует подкреп- 
лению. В этом случае происходит обучение системы: формируется прототип реакции (9). 
В качестве мотива используется мотив, который был погашен — мотив самосохране- 
ния. «Пустой» ситуационный элемент специфицируется. При повторении ситуации, 
в которой ожидается столкновение, и поворот вправо позволяет избежать его, снова 
происходит обучение — прототипы ситуационного элемента модифицируются и за- 
крепляются. На рис. 6 в) показана траектория, выработанная управлением вновь сфор- 
мированного ситуационного элемента после серии экспериментов обучения. 


и 
/ 

/ 
и 


“\ 


` 


а) 6) в) 


Рисунок 6 — Поведение робота при столкновении со стенкой: 
до обучения (а), эталонная реакция (6) и после обучения (в) 


Таким образом, закрепление успешной реакции позволяет системе избегать 
столкновения с препятствием в дальнейшем без необходимости поиска. 


434 «Искусственный интеллект» 2013 №3 


О модификации метода обучения с подкреплением на основе моделей... 5К 


На следующем этапе аналогичным методом формируется второй ситуационный 
элемент агента, для ситуации, когда робот движется с высокой скоростью и не успе- 
вает повернуть. Данная ситуация представлена на рис. 7 а). 

Обучение в данном случае будет проведено в три этапа. На первом этапе будет 
произведена дифференцировка прототипа ситуации ранее описанного элемента: вы- 
сокое значение начальной скорости не является подходящим, так как не получено 
подкрепление. 


я 
а) 6) 


Рисунок 7 — Траектория движения при высокой начальной скорости 


На втором этапе, который будет происходить частично параллельно с первым, 
происходит выделение нового ситуационного элемента. Данный этап абсолютно анало- 
гичен рассмотренному ранее процессу, и полученный прототип ситуации данного 
элемента также значительно отличается только в сенсорах 574, ‚. 

Третий этап заключается в поиске подходящей реакции, которая позволит снизить 
активность мотива самосохранения. В нашем случае из возможных найденных реше- 
ний рассмотрим реакцию снижения скорости движения. В этом случае, непосредственно 
данная реакция не приводит к подкреплению, однако, возникает ситуация, которая 
соответствует уже известному прототипу. В результате применяется первый ситуацион- 
ный элемент, который и является подкрепляющим стимулом для второго. Данные 
ситуационные элементы связываются контекстной связью и второй ситуационный 
элемент теперь является частью ситуационного агента. Результат работы агента из 
двух ситуационных элементов показан на рис. 7 6). 


Выводы 


Рассмотрены варианты механизма обучения обобщённого ситуационного управ- 
ления, которые приводят к структурным изменениям системы управления. Формальная 
модель описывает зависимость начальных значений сформированных прототипов ситуа- 
ции и реакции ситуационного элемента от других известных величин. 

При дальнейшем функционировании системы может также происходить обуче- 
ние, влияние которого отражается не на структуре системы, а на значении прототипов 
существующих элементов и контекстных связей между ситуационными элементами. 

Предложен новый подход к обучению в ситуационных системах управления, 
отличающийся от известных, базирующихся на нейронных сетях и нечетких системах, 
тем, что в нём формализованы теории научения, освещённые в когнитивной психо- 
логии. Рассмотрена формализация процедуры формирования прототипов ситуации и 
управления в задаче самообучения. 
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